38 research outputs found

    Classification automatique pour la compréhension de la parole (vers des systèmes semi-supervisés et auto-évolutifs)

    Get PDF
    La compréhension automatique de la parole est au confluent des deux grands domaines que sont la reconnaissance automatique de la parole et l'apprentissage automatique. Un des problèmes majeurs dans ce domaine est l'obtention d'un corpus de données conséquent afin d'obtenir des modèles statistiques performants. Les corpus de parole pour entraîner des modèles de compréhension nécessitent une intervention humaine importante, notamment dans les tâches de transcription et d'annotation sémantique. Leur coût de production est élevé et c'est la raison pour laquelle ils sont disponibles en quantité limitée.Cette thèse vise principalement à réduire ce besoin d'intervention humaine de deux façons : d'une part en réduisant la quantité de corpus annoté nécessaire à l'obtention d'un modèle grâce à des techniques d'apprentissage semi-supervisé (Self-Training, Co-Training et Active-Learning) ; et d'autre part en tirant parti des réponses de l'utilisateur du système pour améliorer le modèle de compréhension.Ce dernier point touche à un second problème rencontré par les systèmes de compréhension automatique de la parole et adressé par cette thèse : le besoin d'adapter régulièrement leurs modèles aux variations de comportement des utilisateurs ou aux modifications de l'offre de services du systèmeTwo wide research fields named Speech Recognition and Machine Learning meet with the Automatic Speech Language Understanding. One of the main problems in this domain is to obtain a sufficient corpus to train an efficient statistical model. Such speech corpora need a lot of human involvement to transcript and semantically annotate them. Their production cost is therefore quite high and they are difficultly available.This thesis mainly aims at reducing the need of human intervention in two ways: firstly, reducing the amount of corpus needed to build a model thanks to some semi-supervised learning methods (Self-Training, Co-Training and Active-Learning); And lastly, using the answers of the system end-user to improve the comprehension model.This last point addresses another problem related to automatic speech understanding systems: the need to adapt their models to the fluctuation of end-user habits or to the modification of the services list offered by the systemAVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

    CALOR-QUEST : un corpus d'entraînement et d'évaluation pour la compréhension automatique de textes

    Get PDF
    International audienceLa compréhension automatique de texte est une tâche faisant partie de la famille des systèmes de Question/Réponse où les questions ne sont pas à portée générale mais sont liées à un document particulier. Récemment de très grand corpus (SQuAD, MS MARCO) contenant des triplets (document, question, réponse) ont été mis à la disposition de la communauté scientifique afin de développer des méthodes supervisées à base de réseaux de neurones profonds en obtenant des résultats prometteurs. Ces méthodes sont cependant très gourmandes en données d'apprentissage, données qui n'existent pour le moment que pour la langue anglaise. Le but de cette étude est de permettre le développement de telles ressources pour d'autres langue à moindre coût en proposant une méthode générant des questions à partir d'une analyse sémantique de manière semi-automatique. La collecte de questions naturelle est réduite à un ensemble de validation/test. L'application de cette méthode sur le corpus CALOR-Frame a permis de développer la ressource CALOR-QUEST présentée dans cet article. ABSTRACT Machine reading comprehension is a task related to the Question-Answering task where questions are not generic in scope but are related to a particular document. Recently very large corpora (SQuAD, MS MARCO) containing triplets (document, question, answer) were made available to the scientific community to develop supervised methods based on deep neural networks with promising results. These methods need very large training corpus to be efficient, however such kind of data only exists for English at the moment. The purpose of this study is the development of such resources for other languages by proposing a method generating questions from a semantic frame analysis in a semi-automatic way. The collect of natural questions is reduced to a validation/test set. We applied this method on the French CALOR-Frame corpus in order to develop the CALOR-QUEST resource presented in this paper. MOTS-CLÉS : Compréhension automatique de texte, Question Réponse, Analyse en cadre séman-tique, Génération de questions

    Evaluating the pronunciation of proper names by four French grapheme-to-phoneme converters

    No full text
    International Speech Communication Association (Isca) - International Astronautical Federation.ISBN : 13 9781604234480.This article reports on the results of a cooperative evaluation of grapheme-to-phoneme (GP) conversion for proper names in French. This work was carried out within the framework of a general evaluation campaign of various speech and language processing devices, including text-to-speech synthesis. The corpus and the methodology are described. The results of 4 systems are analysed: with 12-20% word error rates on a list of 8,000 proper names, they give a fairly accurate picture of the progress achieved, the state-of-the-art and the problems still to be solved, in the domain of GP conversion in French. In addition, the resources and collected data will be made available to the scientific and industrial community, in order to be re-used in future bench-marks

    Composition sémantique pour la langue orale

    No full text
    La thèse présentée ici a pour but de proposer des systèmes de détection, de composition de constituants sémantiques et d'interprétation dans la compréhension de la langue naturelle parlée. Cette compréhension se base sur un système de reconnaissance automatique de la parole qui traduit les signaux oraux en énoncés utilisables par la machine. Le signal de la parole, ainsi transcrit, comporte un ensemble d'erreurs liées aux erreurs de reconnaissance (bruits, parasites, mauvaise prononciation...). L'interprétation de cet énoncé est d'autant plus difficile qu'il est issu d'un discours parlé, soumis à la disfluence du discours, aux auto-corrections... L'énoncé est de plus agrammatical, car le discours parlé lui-même est agrammatical. L'application de méthodes d'analyses grammaticales ne produit pas de bons résultats d'interprétation, sur des textes issus de transcriptions de la parole. L'utilisation de méthodes d'analyses syntaxiques profondes est à éviter. De ce fait, une analyse superficielle est envisagée. Un des premiers objectifs est de proposer une représentation du sens. Il s agit de considérer des ontologies afin de conceptualiser le monde que l'on décrit. On peut exprimer les composants sémantiques en logique du premier ordre avec des prédicats. Dans les travaux décrits ici, nous représentons les éléments sémantiques par des frames (FrameNet ). Les structures de frames sont hiérarchisées, et sont des fragments de connaissances auxquels on peut insérer, fusionner ou inférer d'autres fragments de connaissances. Les structures de frames sont dérivables en formules logiques. Nous proposons un système de compréhension de la parole à partir de règles logiques avec le support d'une ontologie, afin de pouvoir créer des liens à partir de composants sémantiques. Puis, nous avons mené une étude sur la découverte des supports syntaxiques des relations sémantiques. Nous proposons une expérience de composition sémantique afin d'enrichir les composants sémantiques de base. Enfin, nous présentons un système de détection de lambda-expression pour mettre en hypothèse les relations à trouver à travers le discoursThe thesis presented here is intended to provide detection systems, composition of components and semantic interpretation in the natural spoken language understanding. This understanding is based on an automatic speech recognition system that translates the signals into oral statements used by the machine. The transcribed speech signal, contains a series of errors related to recognition errors (noise, poor pronunciation...). The interpretation of this statement is difficult because it is derived from a spoken discourse, subject to the disfluency of speech, forself-correction... The statement is more ungrammatical, because the spoken discourse itself is ungrammatical. The application of grammatical analysis methods do not produce good results interpretation, on the outcome of speech transcription. The use of deep syntactic analysis methods should be avoided. Thus, a superficial analysis is considered. A primary objective is to provide a representation of meaning. It is considered ontologies to conceptualize the world we describe. We can express the semantic components in first order logic with predicates. In the work described here, we represent the semantic elements by frames (FrameNet ). The frames are hierarchical structures, and are fragments of knowledge which can be inserted, merge or infer other fragments of knowledge. The frames are differentiable structures in logical formulas. We propose a system for speech understanding from logical rules with the support of an ontology in order to create links from semantic components. Then, we conducted a study on the discovery supports syntactic semantic relationships. We propose a compositional semantics experience to enrich the basic semantic components. Finally, we present a detection system for lambda-expression hypothesis to find the relationship through discourseAVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

    Apprentissage automatique et compréhension dans le cadre d'un dialogue homme-machine téléphonique à initiative mixte

    No full text
    Les systèmes de dialogues oraux Homme-Machine sont des interfaces entre un utilisateur et des services. Ces services sont présents sous plusieurs formes : services bancaires, systèmes de réservations (de billets de train, d avion), etc. Les systèmes de dialogues intègrent de nombreux modules notamment ceux de reconnaissance de la parole, de compréhension, de gestion du dialogue et de synthèse de la parole. Le module qui concerne la problématique de cette thèse est celui de compréhension de la parole. Le processus de compréhension de la parole est généralement séparé du processus de transcription. Il s agit, d abord, de trouver la meilleure hypothèse de reconnaissance puis d appliquer un processus de compréhension. L approche proposée dans cette thèse est de conserver l espace de recherche probabiliste tout au long du processus de compréhension en l enrichissant à chaque étape. Cette approche a été appliquée lors de la campagne d évaluation MEDIA. Nous montrons l intérêt de notre approche par rapport à l approche classique. En utilisant différentes sorties du module de RAP sous forme de graphe de mots, nous montrons que les performances du décodage conceptuel se dégradent linéairement en fonction du taux d erreurs sur les mots (WER). Cependant nous montrons qu une approche intégrée, cherchant conjointement la meilleure séquence de mots et de concepts, donne de meilleurs résultats qu une approche séquentielle. Dans le souci de valider notre approche, nous menons des expériences sur le corpus MEDIA dans les mêmes conditions d évaluation que lors de la campagne MEDIA. Il s agit de produire des interprétations sémantiques à partir des transcriptions sans erreur. Les résultats montrent que les performances atteintes par notre modèle sont au niveau des performances des systèmes ayant participé à la campagne d évaluation. L étude détaillée des résultats obtenus lors de la campagne MEDIA nous permet de montrer la corrélation entre, d une part, le taux d erreur d interprétation et, d autre part, le taux d erreur mots de la reconnaissance de la parole, la taille du corpus d apprentissage, ainsi que l ajout de connaissance a priori aux modèles de compréhension. Une analyse d erreurs montre l intérêt de modifier les probabilités des treillis de mots avec des triggers, un modèle cache ou d utiliser des règles arbitraires obligeant le passage dans une partie du graphe et s appliquant sur la présence d éléments déclencheurs (mots ou concepts) en fonction de l historique. On présente les méthodes à base de d apprentissage automatique comme nécessairement plus gourmandes en terme de corpus d apprentissage. En modifiant la taille du corpus d apprentissage, on peut mesurer le nombre minimal ainsi que le nombre optimal de dialogues nécessaires à l apprentissage des modèles de langages conceptuels du système de compréhension. Des travaux de recherche menés dans cette thèse visent à déterminer quel est la quantité de corpus nécessaire à l apprentissage des modèles de langages conceptuels à partir de laquelle les scores d évaluation sémantiques stagnent. Une corrélation est établie entre la taille de corpus nécessaire pour l apprentissage et la taille de corpus afin de valider le guide d annotations. En effet, il semble, dans notre cas de l évaluation MEDIA, qu il ait fallu sensiblement le même nombre d exemple pour, d une part, valider l annotation sémantique et, d autre part, obtenir un modèle stochastique de qualité appris sur corpus. De plus, en ajoutant des données a priori à nos modèles stochastiques, nous réduisons de manière significative la taille du corpus d apprentissage nécessaire pour atteindre les même scores du système entièrement stochastique (près de deux fois moins de corpus à score égal). Cela nous permet de confirmer que l ajout de règles élémentaires et intuitives (chiffres, nombres, codes postaux, dates) donne des résultats très encourageants. Ce constat a mené à la réalisation d un système hybride mêlant des modèles à base de corpus et des modèles à base de connaissance. Dans un second temps, nous nous appliquons à adapter notre système de compréhension à une application de dialogue simple : un système de routage d appel. La problématique de cette tâche est le manque de données d apprentissage spécifiques au domaine. Nous la résolvons en partie en utilisant divers corpus déjà à notre disposition. Lors de ce processus, nous conservons les données génériques acquises lors de la campagne MEDIA et nous y intégrons les données spécifiques au domaine. Nous montrons l intérêt d intégrer une tâche de classification d appel dans un processus de compréhension de la parole spontanée. Malheureusement, nous disposons de très peu de données d apprentissage relatives au domaine de la tâche. En utilisant notre approche intégrée de décodage conceptuel, conjointement à un processus de filtrage, nous proposons une approche sous forme de sac de mots et de concepts. Cette approche exploitée par un classifieur permet d obtenir des taux de classification d appels encourageants sur le corpus de test, alors que le WER est assez élevé. L application des méthodes développées lors de la campagne MEDIA nous permet d améliorer la robustesse du processus de routage d appels.Spoken dialogues systems are interfaces between users and services. Simple examples of services for which theses dialogue systems can be used include : banking, booking (hotels, trains, flights), etc. Dialogue systems are composed of a number of modules. The main modules include Automatic Speech Recognition (ASR), Spoken Language Understanding (SLU), Dialogue Management and Speech Generation. In this thesis, we concentrate on the Spoken Language Understanding component of dialogue systems. In the past, it has usual to separate the Spoken Language Understanding process from that of Automatic Speech Recognition. First, the Automatic Speech Recognition process finds the best word hypothesis. Given this hypothesis, we then find the best semantic interpretation. This thesis presents a method for the robust extraction of basic conceptual constituents (or concepts) from an audio message. The conceptual decoding model proposed follows a stochastic paradigm and is directly integrated into the Automatic Speech Recognition process. This approach allows us to keep the probabilistic search space on sequences of words produced by the Automatic Speech Recognition module, and to project it to a probabilistic search space of sequences of concepts. The experiments carried out on the French spoken dialogue corpus MEDIA, available through ELDA, show that the performance reached by our new approach is better than the traditional sequential approach. As a starting point for evaluation, the effect that deterioration of word error rate (WER) has on SLU systems is examined though use of different ASR outputs. The SLU performance appears to decrease lineary as a function of ASR word error rate.We show, however, that the proposed integrated method of searching for both words and concets, gives better results to that of a traditionnanl sequential approach. In order to validate our approach, we conduct experiments on the MEDIA corpus in the same assessment conditions used during the MEDIA campaign. The goal is toproduce error-free semantic interpretations from transcripts. The results show that the performance achieved by our model is as good as the systems involved in the evaluation campaign. Studies made on the MEDIA corpus show the concept error rate is related to the word error rate, the size of the training corpus and a priori knwoledge added to conceptual model languages. Error analyses show the interest of modifying the probabilities of word lattice with triggers, a template cache or by using arbitrary rules requiring passage through a portion of the graph and applying the presence of triggers (words or concepts) based on history. Methods based on machine learning are generally quite demanding in terms of amount of training data required. By changing the size of the training corpus, the minimum and the optimal number of dialogues needed for training conceptual language models can be measured. Research conducted in this thesis aims to determine the size of corpus necessary for training conceptual language models from which the semantic evaluation scores stagnated. A correlation is established between the necessary corpus size for learning and the corpus size necessary to validate the manual annotations. In the case of the MEDIA evaluation campaign, it took roughly the same number of examples, first to validate the semantic annotations and, secondly, to obtain a "quality" corpus-trained stochastic model. The addition of a priori knowledge to our stochastic models reduce significantly the size of the training corpus needed to achieve the same scores as a fully stochastic system (nearly half the size for the same score). It allows us to confirm that the addition of basic intuitive rules (numbers, zip codes, dates) gives very encouraging results. It leeds us to create a hybrid system combining corpus-based and knowledge-based models. The second part of the thesis examines the application of the understanding module to another simple dialogue system task, a callrouting system. A problem with this specific task is a lack of data available for training the requiered language models. We attempt to resolve this issue by supplementing he in-domain data with various other generic corpora already available, and data from the MEDIA campaing. We show the benefits of integrating a call classification task in a SLU process. Unfortunately, we have very little training corpus in the field under consideration. By using our integrated approach to decode concepts, along with an integrated process, we propose a bag of words and concepts approach. This approach used by a classifier achieved encouraging call classification rates on the test corpus, while the WER was relativelyhigh. The methods developed are shown to improve the call routing system process robustness.AVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

    Décodage conceptuel (co-articulation des processus de transcription et compréhension dans les systèmes de dialogue)

    No full text
    Dans les systèmes de dialogue oral homme-machine, le processus de compréhension consiste à construire une représentation sémantique à partir d'unités sémantiques élémentaires appelées concepts. L'extraction de ces concepts se fait à partir d'une transcription du signal obtenue par un module de reconnaissance de la parole (RAP). Dans cette architecture, la qualité de l'interprétation sémantique est très dépendante de la qualité du processus de RAP. Alternativement à cette approche, nous proposons un modèle basé sur le formalisme des transducteurs à états fini qui met en relation les mots avec les concepts qu'ils représentent. Il permet d'enrichir conceptuellement un graphe de mots. En considérant une interprétation comme étant une séquence de concepts, le processus de décodage proposé fournit une liste structurée des N-meilleures hypothèses d'interprétation de l'énoncé. Cette liste propose en quelques hypothèses, un résumé du graphe de mots, exhaustif et non-redondant du point de vue de la compréhension. Afin de pallier les inévitables erreurs du processus de reconnaissance, nous présentons des mesures de confiance pour diagnostiquer la qualité d'une interprétation. Elles sont basées sur des connaissances acoustiques, linguistiques et sémantiques et opèrent sur différents niveaux: mot,concept, phrase. Ensuite, nous proposons une stratégie d'aide à la décision pour le gestionnaire de dialogue. Cette stratégie s'appuie sur des unités de décision prenant en entrée la liste structurée et les mesures de confiance. En sortie, à chaque hypothèse est associée un état de fiabilité. Selon l'état et ses caractéristiques, des stratégies de correction d'erreurs adaptées sont proposéesAVIGNON-BU Centrale (840072102) / SudocSudocFranceF

    Annotation syntaxique automatique de la partie orale du CÉFC

    No full text
    International audienc

    Question Generation and Answering for exploring Digital Humanities collections

    No full text
    International audienceThis paper introduces the question answering paradigm as a way to explore digitized archive collections for Social Science studies. In particular, we are interested in evaluating largely studied question generation and question answering approaches on a new type of documents, as a step forward beyond traditional benchmark evaluations. Question generation can be used as a way to provide enhanced training material for Machine Reading Question Answering algorithms but also has its own purpose in this paradigm, where relevant questions can be used as a way to create explainable links between documents. To this end, generating large amounts of question is not the only motivation, but we need to include qualitative and semantic control to the generation process. In the framework the French ANR project ARCHIVAL, we propose a new approach for question generation, relying on a BART Transformer based generative model, for which input data are enriched by semantic constraints. Question generation and answering are evaluated on several French corpora, and the whole approach is validated on a new corpus of digitized archive collection of a French Social Science journal

    CALOR-QUEST : un corpus d'entraînement et d'évaluation pour la compréhension automatique de textes

    Get PDF
    International audienceMachine reading comprehension is a task related to the Question-Answering task where questions are not generic in scope but are related to a particular document. Recently very large corpora (SQuAD, MS MARCO) containing triplets (document, question, answer) were made available to the scientific community to develop supervised methods based on deep neural networks with promising results. These methods need very large training corpus to be efficient, however such kind of data only exists for English at the moment. The purpose of this study is the development of such resources for other languages by proposing a method generating questions from a semantic frame analysis in a semi-automatic way. The collect of natural questions is reduced to a validation/test set. We applied this method on the French CALOR-Frame corpus in order to develop the CALOR-QUEST resource presented in this paper.La compréhension automatique de texte est une tâche faisant partie de la famille des systèmes de Question/Réponse où les questions ne sont pas à portée générale mais sont liées à un document particulier. Récemment de très grand corpus (SQuAD, MS MARCO) contenant des triplets (document, question, réponse) ont été mis à la disposition de la communauté scientifique afin de développer des méthodes supervisées à base de réseaux de neurones profonds en obtenant des résultats prometteurs. Ces méthodes sont cependant très gourmandes en données d'apprentissage, données qui n'existent pour le moment que pour la langue anglaise. Le but de cette étude est de permettre le développement de telles ressources pour d'autres langue à moindre coût en proposant une méthode générant des questions à partir d'une analyse sémantique de manière semi-automatique. La collecte de questions naturelle est réduite à un ensemble de validation/test. L'application de cette méthode sur le corpus CALOR-Frame a permis de développer la ressource CALOR-QUEST présentée dans cet article
    corecore